import sys
sys.path.insert(0,"../../")
from gxl_ai_utils.utils import utils_file

s = "[VOCALIZED-NOISE] 同志 来了 以后 吧 先到 停车场 对 这个 <肇事> 车辆 呃 [VOCALIZED-NOISE] 的 体味 进行 [VOCALIZED-NOISE] 那么 首先 对 方向盘 他 的 这个 座椅 和 这个 [VOCALIZED-NOISE] 呃 然后 对 这个 两位 这个 [VOCALIZED-NOISE] 嫌疑人 也 进行 [VOCALIZED-NOISE] 对他 的 这个 声波 脚 波 以及 胸 波 这个 气味 进行 提取"
s = utils_file.do_remove_brackets_content(s)
s = utils_file.do_remove_spaces_between_chinese(s)
s = utils_file.do_remove_punctuation_keep_quote(s)
def do_remove_special_char(s):
    s = utils_file.do_remove_brackets_content(s)
    s = utils_file.do_remove_spaces_between_chinese(s)
    s = utils_file.do_remove_punctuation_keep_quote(s)
    return s
print(s)
text_path = "/apdcephfs_qy3/share_976139/data/asr/train/zh/train_20240825_ver12_80kh_org_fbankhires/text"
text_dict = utils_file.load_dict_from_scp(text_path)
new_text_dict = {}
for k, v in utils_file.tqdm(text_dict.items()):
    new_text_dict[k] = do_remove_special_char(v)
new_text_path = "/mnt/apdcephfs_sgfd/share_303841515/Tealab/user/xuelonggeng/data/8W_asr_data_hq/text_clean.scp"
utils_file.write_dict_to_scp(new_text_dict, new_text_path)